<div id="img-content" class="rich_media_wrp">
          
          <h1 class="rich_media_title " id="activity-name">
            
Deepseek R1可能找到了超越人类的办法
          </h1>
          <div id="meta_content" class="rich_media_meta_list">
                                      <span id="copyright_logo" class="wx_tap_link js_wx_tap_highlight rich_media_meta icon_appmsg_tag appmsg_title_tag weui-wa-hotarea">原创</span>
                                                      <span class="rich_media_meta rich_media_meta_text">
                                      碎瓜
                                  </span>
                                      
                        <span class="rich_media_meta rich_media_meta_nickname" id="profileBt">
              <a href="javascript:void(0);" class="wx_tap_link js_wx_tap_highlight weui-wa-hotarea" id="js_name">
                波斯兔子              </a>
              
              <div data-v-da33bb4f="" id="js_profile_qrcode" class="profile_card_container" style="display: none;"><div data-v-da33bb4f="" class="profile_card_wrap"><div data-v-da33bb4f="" class="profile_card_qrcode"><img data-v-da33bb4f="" id="js_profile_qrcode_img" src="/mp/qrcode?scene=10000007&amp;size=102&amp;__biz=Mzg4NzExOTM3OA==&amp;mid=2247484284&amp;idx=1&amp;sn=0c3f11159f6a6edb2a39536446d34848&amp;send_time=" alt="profile_qrcode" class="profile_qrcode_img"></div><div data-v-da33bb4f="" class="profile_card_info"><div data-v-da33bb4f=""><span data-v-da33bb4f="" class="profile_info_nickname"> 波斯兔子 </span></div><!----><div data-v-da33bb4f="" class="profile_card_info_meta"><p data-v-da33bb4f="" class="profile_card_info_meta_text profile_card_signature"> 只说我自己所想。 </p></div><p data-v-da33bb4f="" class="profile_original_count profile_card_info_meta"><span data-v-da33bb4f="" class="profile_card_info_meta_text">8篇原创内容</span></p></div></div><div data-v-da33bb4f="" id="js_profile_arrow_wrp" class="profile_arrow_wrp" style="left: 23px;"><i data-v-da33bb4f="" class="profile_arrow arrow_out"></i><i data-v-da33bb4f="" class="profile_arrow arrow_in"></i></div></div>
            </span>
            
            <span id="meta_content_hide_info" class="">
              <em id="publish_time" class="rich_media_meta rich_media_meta_text">2025年01月30日 14:57</em>
              <em id="js_ip_wording_wrp" class="rich_media_meta rich_media_meta_text" role="option" aria-labelledby="js_a11y_op_ip_wording js_ip_wording" style="display: inline-block;"><span id="js_a11y_op_ip_wording" aria-hidden="true"></span><span aria-hidden="true" id="js_ip_wording">湖北</span></em>
              
                            
            </span>
                      </div>

          
          
          
            
              
              
            
              
              
                
              
            
          

          
          

          
                                        

          
                    

          
                              
                                        
                    
                    
          
          
          
          
          
                                                            <div class="rich_media_content js_underline_content
                       autoTypeSetting24psection
            " id="js_content" style=""><section data-tool="markdown2wechat编辑器" data-website="https://aizhuanqian.com" style="font-size: 16px; color: black; padding: 0px 10px; line-height: 1.6; word-spacing: 0px; letter-spacing: 0px; word-break: break-word; overflow-wrap: break-word; text-align: left; font-family: Optima-Regular, Optima, PingFangSC-light, PingFangTC-light, &quot;PingFang SC&quot;, Cambria, Cochin, Georgia, Times, &quot;Times New Roman&quot;, serif; visibility: visible; margin-bottom: 0px;"><blockquote style="display: block; font-size: 0.9em; overflow: auto; border-left: 3px solid rgba(0, 0, 0, 0.4); background: rgba(0, 0, 0, 0.05); color: rgb(106, 115, 125); padding: 10px 10px 10px 20px; margin-bottom: 20px; margin-top: 20px; visibility: visible;"><p style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0px; color: black; line-height: 26px; visibility: visible;"><span leaf="" style="visibility: visible;">我本想写一篇关于 DeepSeek R1 的科普文，但发现很多人仅仅把它理解为 OpenAI 的复制品，而忽略了它在论文中揭示的“惊人一跃”，所以，我决定重新写一篇，讲讲从 AlphaGo 到 ChatGPT，再到最近的 DeepSeek R1 底层原理的突破，以及为什么它对所谓的 AGI/ASI 很重要。作为一名普通的 AI 算法工程师，我可能无法做到非常深入，如有错误欢迎指出。</span></p></blockquote><h2 data-tool="mdnice编辑器" style="margin-top: 30px; margin-bottom: 15px; padding: 0px; font-weight: bold; color: black; font-size: 22px; visibility: visible;"><span style="display: none;"></span><span leaf="" style="visibility: visible;">AlphaGo 突破人类上限</span></h2><p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0px; line-height: 26px; color: black; visibility: visible;"><span leaf="" style="visibility: visible;">1997 年，IBM 公司开发的国际象棋 AI 深蓝，击败了世界冠军卡斯帕罗夫而引发轰动；接近二十年后的 2016 年，由 DeepMind 开发的围棋 AI AlphaGo 击败了围棋世界冠军李世石，再次引发轰动。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0px; line-height: 26px; color: black; visibility: visible;"><span leaf="" style="visibility: visible;">表面上看这两个 AI 都是在棋盘上击败了最强的人类棋手，但它们对人类的意义完全不同。国际象棋的棋盘只有 64 个格子，而围棋的棋盘有 19x19 个格子，假如我们用</span><strong style="font-weight: bold; color: black; visibility: visible;"><span leaf="" style="visibility: visible;">一盘棋能有多少种下法</span></strong><span leaf="" style="visibility: visible;">(</span><em style="font-style: italic; color: black; visibility: visible;"><span leaf="" style="visibility: visible;">状态空间</span></em><span leaf="" style="visibility: visible;">)来衡量复杂度，那么二者对比如下：</span></p><ol style="margin-top: 8px; margin-bottom: 8px; padding-left: 25px; color: black; list-style-type: decimal; visibility: visible;" class="list-paddingleft-1"><li style="visibility: visible;"><section style="margin-top: 5px; margin-bottom: 5px; line-height: 26px; text-align: left; color: rgb(1, 1, 1); font-weight: 500; visibility: visible;"><strong style="font-weight: bold; color: black; visibility: visible;"><span leaf="" style="visibility: visible;">理论上的状态空间</span></strong></section></li><ul style="margin-top: 8px; margin-bottom: 8px; padding-left: 25px; color: black; list-style-type: disc; visibility: visible;" class="list-paddingleft-1"><li style="visibility: visible;"><section style="margin-top: 5px; margin-bottom: 5px; line-height: 26px; text-align: left; color: rgb(1, 1, 1); font-weight: 500; visibility: visible;"><span leaf="" style="visibility: visible;">国际象棋：每局约&nbsp;</span><strong style="font-weight: bold; color: black; visibility: visible;"><span leaf="" style="visibility: visible;">80 步</span></strong><span leaf="" style="visibility: visible;">，每步有&nbsp;</span><strong style="font-weight: bold; color: black; visibility: visible;"><span leaf="" style="visibility: visible;">35 种</span></strong><span leaf="" style="visibility: visible;">走法 → 理论状态空间为&nbsp;</span><span style="cursor: pointer; visibility: visible;"><span role="presentation" data-formula="35^{80} \approx 10^{123}" data-formula-type="inline-equation" style="visibility: visible;"><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -864 5201.3 886" aria-hidden="true" style="vertical-align: -0.05ex; width: 11.768ex; height: 2.005ex; visibility: visible;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)" style="visibility: visible;"><g data-mml-node="math" style="visibility: visible;"><g data-mml-node="msup" style="visibility: visible;"><g data-mml-node="mn" style="visibility: visible;"><path data-c="33" d="M127 463Q100 463 85 480T69 524Q69 579 117 622T233 665Q268 665 277 664Q351 652 390 611T430 522Q430 470 396 421T302 350L299 348Q299 347 308 345T337 336T375 315Q457 262 457 175Q457 96 395 37T238 -22Q158 -22 100 21T42 130Q42 158 60 175T105 193Q133 193 151 175T169 130Q169 119 166 110T159 94T148 82T136 74T126 70T118 67L114 66Q165 21 238 21Q293 21 321 74Q338 107 338 175V195Q338 290 274 322Q259 328 213 329L171 330L168 332Q166 335 166 348Q166 366 174 366Q202 366 232 371Q266 376 294 413T322 525V533Q322 590 287 612Q265 626 240 626Q208 626 181 615T143 592T132 580H135Q138 579 143 578T153 573T165 566T175 555T183 540T186 520Q186 498 172 481T127 463Z" style="visibility: visible;"></path><path data-c="35" d="M164 157Q164 133 148 117T109 101H102Q148 22 224 22Q294 22 326 82Q345 115 345 210Q345 313 318 349Q292 382 260 382H254Q176 382 136 314Q132 307 129 306T114 304Q97 304 95 310Q93 314 93 485V614Q93 664 98 664Q100 666 102 666Q103 666 123 658T178 642T253 634Q324 634 389 662Q397 666 402 666Q410 666 410 648V635Q328 538 205 538Q174 538 149 544L139 546V374Q158 388 169 396T205 412T256 420Q337 420 393 355T449 201Q449 109 385 44T229 -22Q148 -22 99 32T50 154Q50 178 61 192T84 210T107 214Q132 214 148 197T164 157Z" transform="translate(500, 0)" style="visibility: visible;"></path></g><g data-mml-node="TeXAtom" transform="translate(1000, 393.1) scale(0.707)" data-mjx-texclass="ORD" style="visibility: visible;"><g data-mml-node="mn" style="visibility: visible;"><path data-c="38" d="M70 417T70 494T124 618T248 666Q319 666 374 624T429 515Q429 485 418 459T392 417T361 389T335 371T324 363L338 354Q352 344 366 334T382 323Q457 264 457 174Q457 95 399 37T249 -22Q159 -22 101 29T43 155Q43 263 172 335L154 348Q133 361 127 368Q70 417 70 494ZM286 386L292 390Q298 394 301 396T311 403T323 413T334 425T345 438T355 454T364 471T369 491T371 513Q371 556 342 586T275 624Q268 625 242 625Q201 625 165 599T128 534Q128 511 141 492T167 463T217 431Q224 426 228 424L286 386ZM250 21Q308 21 350 55T392 137Q392 154 387 169T375 194T353 216T330 234T301 253T274 270Q260 279 244 289T218 306L210 311Q204 311 181 294T133 239T107 157Q107 98 150 60T250 21Z" style="visibility: visible;"></path><path data-c="30" d="M96 585Q152 666 249 666Q297 666 345 640T423 548Q460 465 460 320Q460 165 417 83Q397 41 362 16T301 -15T250 -22Q224 -22 198 -16T137 16T82 83Q39 165 39 320Q39 494 96 585ZM321 597Q291 629 250 629Q208 629 178 597Q153 571 145 525T137 333Q137 175 145 125T181 46Q209 16 250 16Q290 16 318 46Q347 76 354 130T362 333Q362 478 354 524T321 597Z" transform="translate(500, 0)" style="visibility: visible;"></path></g></g></g><g data-mml-node="mo" transform="translate(2034.9, 0)" style="visibility: visible;"><path data-c="2248" d="M55 319Q55 360 72 393T114 444T163 472T205 482Q207 482 213 482T223 483Q262 483 296 468T393 413L443 381Q502 346 553 346Q609 346 649 375T694 454Q694 465 698 474T708 483Q722 483 722 452Q722 386 675 338T555 289Q514 289 468 310T388 357T308 404T224 426Q164 426 125 393T83 318Q81 289 69 289Q55 289 55 319ZM55 85Q55 126 72 159T114 210T163 238T205 248Q207 248 213 248T223 249Q262 249 296 234T393 179L443 147Q502 112 553 112Q609 112 649 141T694 220Q694 249 708 249T722 217Q722 153 675 104T555 55Q514 55 468 76T388 123T308 170T224 192Q164 192 125 159T83 84Q80 55 69 55Q55 55 55 85Z" style="visibility: visible;"></path></g><g data-mml-node="msup" transform="translate(3090.7, 0)" style="visibility: visible;"><g data-mml-node="mn" style="visibility: visible;"><path data-c="31" d="M213 578L200 573Q186 568 160 563T102 556H83V602H102Q149 604 189 617T245 641T273 663Q275 666 285 666Q294 666 302 660V361L303 61Q310 54 315 52T339 48T401 46H427V0H416Q395 3 257 3Q121 3 100 0H88V46H114Q136 46 152 46T177 47T193 50T201 52T207 57T213 61V578Z" style="visibility: visible;"></path><path data-c="30" d="M96 585Q152 666 249 666Q297 666 345 640T423 548Q460 465 460 320Q460 165 417 83Q397 41 362 16T301 -15T250 -22Q224 -22 198 -16T137 16T82 83Q39 165 39 320Q39 494 96 585ZM321 597Q291 629 250 629Q208 629 178 597Q153 571 145 525T137 333Q137 175 145 125T181 46Q209 16 250 16Q290 16 318 46Q347 76 354 130T362 333Q362 478 354 524T321 597Z" transform="translate(500, 0)" style="visibility: visible;"></path></g><g data-mml-node="TeXAtom" transform="translate(1000, 393.1) scale(0.707)" data-mjx-texclass="ORD" style="visibility: visible;"><g data-mml-node="mn" style="visibility: visible;"><path data-c="31" d="M213 578L200 573Q186 568 160 563T102 556H83V602H102Q149 604 189 617T245 641T273 663Q275 666 285 666Q294 666 302 660V361L303 61Q310 54 315 52T339 48T401 46H427V0H416Q395 3 257 3Q121 3 100 0H88V46H114Q136 46 152 46T177 47T193 50T201 52T207 57T213 61V578Z" style="visibility: visible;"></path><path data-c="32" d="M109 429Q82 429 66 447T50 491Q50 562 103 614T235 666Q326 666 387 610T449 465Q449 422 429 383T381 315T301 241Q265 210 201 149L142 93L218 92Q375 92 385 97Q392 99 409 186V189H449V186Q448 183 436 95T421 3V0H50V19V31Q50 38 56 46T86 81Q115 113 136 137Q145 147 170 174T204 211T233 244T261 278T284 308T305 340T320 369T333 401T340 431T343 464Q343 527 309 573T212 619Q179 619 154 602T119 569T109 550Q109 549 114 549Q132 549 151 535T170 489Q170 464 154 447T109 429Z" transform="translate(500, 0)" style="visibility: visible;"></path><path data-c="33" d="M127 463Q100 463 85 480T69 524Q69 579 117 622T233 665Q268 665 277 664Q351 652 390 611T430 522Q430 470 396 421T302 350L299 348Q299 347 308 345T337 336T375 315Q457 262 457 175Q457 96 395 37T238 -22Q158 -22 100 21T42 130Q42 158 60 175T105 193Q133 193 151 175T169 130Q169 119 166 110T159 94T148 82T136 74T126 70T118 67L114 66Q165 21 238 21Q293 21 321 74Q338 107 338 175V195Q338 290 274 322Q259 328 213 329L171 330L168 332Q166 335 166 348Q166 366 174 366Q202 366 232 371Q266 376 294 413T322 525V533Q322 590 287 612Q265 626 240 626Q208 626 181 615T143 592T132 580H135Q138 579 143 578T153 573T165 566T175 555T183 540T186 520Q186 498 172 481T127 463Z" transform="translate(1000, 0)" style="visibility: visible;"></path></g></g></g></g></g></svg></span></span></section></li><li style="visibility: visible;"><section style="margin-top: 5px; margin-bottom: 5px; line-height: 26px; text-align: left; color: rgb(1, 1, 1); font-weight: 500; visibility: visible;"><span leaf="" style="visibility: visible;">围棋：每局约&nbsp;</span><strong style="font-weight: bold; color: black; visibility: visible;"><span leaf="" style="visibility: visible;">150 步</span></strong><span leaf="" style="visibility: visible;">，每步有&nbsp;</span><strong style="font-weight: bold; color: black; visibility: visible;"><span leaf="" style="visibility: visible;">250 种</span></strong><span leaf="" style="visibility: visible;">走法 → 理论状态空间为&nbsp;</span><span style="cursor: pointer; visibility: visible;"><span role="presentation" data-formula="250^{150} \approx 10^{360}" data-formula-type="inline-equation" style="visibility: visible;"><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -864 6054.9 886" aria-hidden="true" style="vertical-align: -0.05ex; width: 13.699ex; height: 2.005ex; visibility: visible;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)" style="visibility: visible;"><g data-mml-node="math" style="visibility: visible;"><g data-mml-node="msup" style="visibility: visible;"><g data-mml-node="mn" style="visibility: visible;"><path data-c="32" d="M109 429Q82 429 66 447T50 491Q50 562 103 614T235 666Q326 666 387 610T449 465Q449 422 429 383T381 315T301 241Q265 210 201 149L142 93L218 92Q375 92 385 97Q392 99 409 186V189H449V186Q448 183 436 95T421 3V0H50V19V31Q50 38 56 46T86 81Q115 113 136 137Q145 147 170 174T204 211T233 244T261 278T284 308T305 340T320 369T333 401T340 431T343 464Q343 527 309 573T212 619Q179 619 154 602T119 569T109 550Q109 549 114 549Q132 549 151 535T170 489Q170 464 154 447T109 429Z" style="visibility: visible;"></path><path data-c="35" d="M164 157Q164 133 148 117T109 101H102Q148 22 224 22Q294 22 326 82Q345 115 345 210Q345 313 318 349Q292 382 260 382H254Q176 382 136 314Q132 307 129 306T114 304Q97 304 95 310Q93 314 93 485V614Q93 664 98 664Q100 666 102 666Q103 666 123 658T178 642T253 634Q324 634 389 662Q397 666 402 666Q410 666 410 648V635Q328 538 205 538Q174 538 149 544L139 546V374Q158 388 169 396T205 412T256 420Q337 420 393 355T449 201Q449 109 385 44T229 -22Q148 -22 99 32T50 154Q50 178 61 192T84 210T107 214Q132 214 148 197T164 157Z" transform="translate(500, 0)" style="visibility: visible;"></path><path data-c="30" d="M96 585Q152 666 249 666Q297 666 345 640T423 548Q460 465 460 320Q460 165 417 83Q397 41 362 16T301 -15T250 -22Q224 -22 198 -16T137 16T82 83Q39 165 39 320Q39 494 96 585ZM321 597Q291 629 250 629Q208 629 178 597Q153 571 145 525T137 333Q137 175 145 125T181 46Q209 16 250 16Q290 16 318 46Q347 76 354 130T362 333Q362 478 354 524T321 597Z" transform="translate(1000, 0)" style="visibility: visible;"></path></g><g data-mml-node="TeXAtom" transform="translate(1500, 393.1) scale(0.707)" data-mjx-texclass="ORD" style="visibility: visible;"><g data-mml-node="mn" style="visibility: visible;"><path data-c="31" d="M213 578L200 573Q186 568 160 563T102 556H83V602H102Q149 604 189 617T245 641T273 663Q275 666 285 666Q294 666 302 660V361L303 61Q310 54 315 52T339 48T401 46H427V0H416Q395 3 257 3Q121 3 100 0H88V46H114Q136 46 152 46T177 47T193 50T201 52T207 57T213 61V578Z" style="visibility: visible;"></path><path data-c="35" d="M164 157Q164 133 148 117T109 101H102Q148 22 224 22Q294 22 326 82Q345 115 345 210Q345 313 318 349Q292 382 260 382H254Q176 382 136 314Q132 307 129 306T114 304Q97 304 95 310Q93 314 93 485V614Q93 664 98 664Q100 666 102 666Q103 666 123 658T178 642T253 634Q324 634 389 662Q397 666 402 666Q410 666 410 648V635Q328 538 205 538Q174 538 149 544L139 546V374Q158 388 169 396T205 412T256 420Q337 420 393 355T449 201Q449 109 385 44T229 -22Q148 -22 99 32T50 154Q50 178 61 192T84 210T107 214Q132 214 148 197T164 157Z" transform="translate(500, 0)" style="visibility: visible;"></path><path data-c="30" d="M96 585Q152 666 249 666Q297 666 345 640T423 548Q460 465 460 320Q460 165 417 83Q397 41 362 16T301 -15T250 -22Q224 -22 198 -16T137 16T82 83Q39 165 39 320Q39 494 96 585ZM321 597Q291 629 250 629Q208 629 178 597Q153 571 145 525T137 333Q137 175 145 125T181 46Q209 16 250 16Q290 16 318 46Q347 76 354 130T362 333Q362 478 354 524T321 597Z" transform="translate(1000, 0)" style="visibility: visible;"></path></g></g></g><g data-mml-node="mo" transform="translate(2888.4, 0)" style="visibility: visible;"><path data-c="2248" d="M55 319Q55 360 72 393T114 444T163 472T205 482Q207 482 213 482T223 483Q262 483 296 468T393 413L443 381Q502 346 553 346Q609 346 649 375T694 454Q694 465 698 474T708 483Q722 483 722 452Q722 386 675 338T555 289Q514 289 468 310T388 357T308 404T224 426Q164 426 125 393T83 318Q81 289 69 289Q55 289 55 319ZM55 85Q55 126 72 159T114 210T163 238T205 248Q207 248 213 248T223 249Q262 249 296 234T393 179L443 147Q502 112 553 112Q609 112 649 141T694 220Q694 249 708 249T722 217Q722 153 675 104T555 55Q514 55 468 76T388 123T308 170T224 192Q164 192 125 159T83 84Q80 55 69 55Q55 55 55 85Z" style="visibility: visible;"></path></g><g data-mml-node="msup" transform="translate(3944.2, 0)" style="visibility: visible;"><g data-mml-node="mn" style="visibility: visible;"><path data-c="31" d="M213 578L200 573Q186 568 160 563T102 556H83V602H102Q149 604 189 617T245 641T273 663Q275 666 285 666Q294 666 302 660V361L303 61Q310 54 315 52T339 48T401 46H427V0H416Q395 3 257 3Q121 3 100 0H88V46H114Q136 46 152 46T177 47T193 50T201 52T207 57T213 61V578Z" style="visibility: visible;"></path><path data-c="30" d="M96 585Q152 666 249 666Q297 666 345 640T423 548Q460 465 460 320Q460 165 417 83Q397 41 362 16T301 -15T250 -22Q224 -22 198 -16T137 16T82 83Q39 165 39 320Q39 494 96 585ZM321 597Q291 629 250 629Q208 629 178 597Q153 571 145 525T137 333Q137 175 145 125T181 46Q209 16 250 16Q290 16 318 46Q347 76 354 130T362 333Q362 478 354 524T321 597Z" transform="translate(500, 0)" style="visibility: visible;"></path></g><g data-mml-node="TeXAtom" transform="translate(1000, 393.1) scale(0.707)" data-mjx-texclass="ORD" style="visibility: visible;"><g data-mml-node="mn" style="visibility: visible;"><path data-c="33" d="M127 463Q100 463 85 480T69 524Q69 579 117 622T233 665Q268 665 277 664Q351 652 390 611T430 522Q430 470 396 421T302 350L299 348Q299 347 308 345T337 336T375 315Q457 262 457 175Q457 96 395 37T238 -22Q158 -22 100 21T42 130Q42 158 60 175T105 193Q133 193 151 175T169 130Q169 119 166 110T159 94T148 82T136 74T126 70T118 67L114 66Q165 21 238 21Q293 21 321 74Q338 107 338 175V195Q338 290 274 322Q259 328 213 329L171 330L168 332Q166 335 166 348Q166 366 174 366Q202 366 232 371Q266 376 294 413T322 525V533Q322 590 287 612Q265 626 240 626Q208 626 181 615T143 592T132 580H135Q138 579 143 578T153 573T165 566T175 555T183 540T186 520Q186 498 172 481T127 463Z" style="visibility: visible;"></path><path data-c="36" d="M42 313Q42 476 123 571T303 666Q372 666 402 630T432 550Q432 525 418 510T379 495Q356 495 341 509T326 548Q326 592 373 601Q351 623 311 626Q240 626 194 566Q147 500 147 364L148 360Q153 366 156 373Q197 433 263 433H267Q313 433 348 414Q372 400 396 374T435 317Q456 268 456 210V192Q456 169 451 149Q440 90 387 34T253 -22Q225 -22 199 -14T143 16T92 75T56 172T42 313ZM257 397Q227 397 205 380T171 335T154 278T148 216Q148 133 160 97T198 39Q222 21 251 21Q302 21 329 59Q342 77 347 104T352 209Q352 289 347 316T329 361Q302 397 257 397Z" transform="translate(500, 0)" style="visibility: visible;"></path><path data-c="30" d="M96 585Q152 666 249 666Q297 666 345 640T423 548Q460 465 460 320Q460 165 417 83Q397 41 362 16T301 -15T250 -22Q224 -22 198 -16T137 16T82 83Q39 165 39 320Q39 494 96 585ZM321 597Q291 629 250 629Q208 629 178 597Q153 571 145 525T137 333Q137 175 145 125T181 46Q209 16 250 16Q290 16 318 46Q347 76 354 130T362 333Q362 478 354 524T321 597Z" transform="translate(1000, 0)" style="visibility: visible;"></path></g></g></g></g></g></svg></span></span></section></li></ul><li style="visibility: visible;"><section style="margin-top: 5px; margin-bottom: 5px; line-height: 26px; text-align: left; color: rgb(1, 1, 1); font-weight: 500; visibility: visible;"><strong style="font-weight: bold; color: black; visibility: visible;"><span leaf="" style="visibility: visible;">规则约束后的实际状态空间</span></strong></section></li><ul style="margin-top: 8px;margin-bottom: 8px;padding-left: 25px;color: black;list-style-type: disc;" class="list-paddingleft-1"><li><section style="margin-top: 5px;margin-bottom: 5px;line-height: 26px;text-align: left;color: rgb(1,1,1);font-weight: 500;"><span leaf="">国际象棋：棋子移动受限（如兵不能倒退、王车易位规则） → 实际值&nbsp;</span><span style="cursor:pointer;"><span role="presentation" data-formula="10^{47}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -871.8 1757.1 893.8" aria-hidden="true" style="vertical-align: -0.05ex;width: 3.975ex;height: 2.022ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msup"><g data-mml-node="mn"><path data-c="31" d="M213 578L200 573Q186 568 160 563T102 556H83V602H102Q149 604 189 617T245 641T273 663Q275 666 285 666Q294 666 302 660V361L303 61Q310 54 315 52T339 48T401 46H427V0H416Q395 3 257 3Q121 3 100 0H88V46H114Q136 46 152 46T177 47T193 50T201 52T207 57T213 61V578Z"></path><path data-c="30" d="M96 585Q152 666 249 666Q297 666 345 640T423 548Q460 465 460 320Q460 165 417 83Q397 41 362 16T301 -15T250 -22Q224 -22 198 -16T137 16T82 83Q39 165 39 320Q39 494 96 585ZM321 597Q291 629 250 629Q208 629 178 597Q153 571 145 525T137 333Q137 175 145 125T181 46Q209 16 250 16Q290 16 318 46Q347 76 354 130T362 333Q362 478 354 524T321 597Z" transform="translate(500, 0)"></path></g><g data-mml-node="TeXAtom" transform="translate(1000, 393.1) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mn"><path data-c="34" d="M462 0Q444 3 333 3Q217 3 199 0H190V46H221Q241 46 248 46T265 48T279 53T286 61Q287 63 287 115V165H28V211L179 442Q332 674 334 675Q336 677 355 677H373L379 671V211H471V165H379V114Q379 73 379 66T385 54Q393 47 442 46H471V0H462ZM293 211V545L74 212L183 211H293Z"></path><path data-c="37" d="M55 458Q56 460 72 567L88 674Q88 676 108 676H128V672Q128 662 143 655T195 646T364 644H485V605L417 512Q408 500 387 472T360 435T339 403T319 367T305 330T292 284T284 230T278 162T275 80Q275 66 275 52T274 28V19Q270 2 255 -10T221 -22Q210 -22 200 -19T179 0T168 40Q168 198 265 368Q285 400 349 489L395 552H302Q128 552 119 546Q113 543 108 522T98 479L95 458V455H55V458Z" transform="translate(500, 0)"></path></g></g></g></g></g></svg></span></span></section></li><li><section style="margin-top: 5px;margin-bottom: 5px;line-height: 26px;text-align: left;color: rgb(1,1,1);font-weight: 500;"><span leaf="">围棋：棋子不可移动且依赖“气”的判定 → 实际值&nbsp;</span><span style="cursor:pointer;"><span role="presentation" data-formula="10^{170}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -871.1 2110.7 893.1" aria-hidden="true" style="vertical-align: -0.05ex;width: 4.775ex;height: 2.02ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msup"><g data-mml-node="mn"><path data-c="31" d="M213 578L200 573Q186 568 160 563T102 556H83V602H102Q149 604 189 617T245 641T273 663Q275 666 285 666Q294 666 302 660V361L303 61Q310 54 315 52T339 48T401 46H427V0H416Q395 3 257 3Q121 3 100 0H88V46H114Q136 46 152 46T177 47T193 50T201 52T207 57T213 61V578Z"></path><path data-c="30" d="M96 585Q152 666 249 666Q297 666 345 640T423 548Q460 465 460 320Q460 165 417 83Q397 41 362 16T301 -15T250 -22Q224 -22 198 -16T137 16T82 83Q39 165 39 320Q39 494 96 585ZM321 597Q291 629 250 629Q208 629 178 597Q153 571 145 525T137 333Q137 175 145 125T181 46Q209 16 250 16Q290 16 318 46Q347 76 354 130T362 333Q362 478 354 524T321 597Z" transform="translate(500, 0)"></path></g><g data-mml-node="TeXAtom" transform="translate(1000, 393.1) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mn"><path data-c="31" d="M213 578L200 573Q186 568 160 563T102 556H83V602H102Q149 604 189 617T245 641T273 663Q275 666 285 666Q294 666 302 660V361L303 61Q310 54 315 52T339 48T401 46H427V0H416Q395 3 257 3Q121 3 100 0H88V46H114Q136 46 152 46T177 47T193 50T201 52T207 57T213 61V578Z"></path><path data-c="37" d="M55 458Q56 460 72 567L88 674Q88 676 108 676H128V672Q128 662 143 655T195 646T364 644H485V605L417 512Q408 500 387 472T360 435T339 403T319 367T305 330T292 284T284 230T278 162T275 80Q275 66 275 52T274 28V19Q270 2 255 -10T221 -22Q210 -22 200 -19T179 0T168 40Q168 198 265 368Q285 400 349 489L395 552H302Q128 552 119 546Q113 543 108 522T98 479L95 458V455H55V458Z" transform="translate(500, 0)"></path><path data-c="30" d="M96 585Q152 666 249 666Q297 666 345 640T423 548Q460 465 460 320Q460 165 417 83Q397 41 362 16T301 -15T250 -22Q224 -22 198 -16T137 16T82 83Q39 165 39 320Q39 494 96 585ZM321 597Q291 629 250 629Q208 629 178 597Q153 571 145 525T137 333Q137 175 145 125T181 46Q209 16 250 16Q290 16 318 46Q347 76 354 130T362 333Q362 478 354 524T321 597Z" transform="translate(1000, 0)"></path></g></g></g></g></g></svg></span></span></section></li></ul></ol><section data-tool="mdnice编辑器" style="overflow-x: auto;"><table style="display: table;text-align: left;"><thead><tr style="border: 0;border-top: 1px solid #ccc;background-color: white;"><th valign="top" style="font-size: 16px;border: 1px solid #ccc;padding: 5px 10px;text-align: left;font-weight: bold;background-color: #f0f0f0;min-width: 85px;"><strong style="font-weight: bold;color: black;"><span leaf="">维度</span></strong></th><th valign="top" style="font-size: 16px;border: 1px solid #ccc;padding: 5px 10px;text-align: left;font-weight: bold;background-color: #f0f0f0;min-width: 85px;"><strong style="font-weight: bold;color: black;"><span leaf="">国际象棋（深蓝）</span></strong></th><th valign="top" style="font-size: 16px;border: 1px solid #ccc;padding: 5px 10px;text-align: left;font-weight: bold;background-color: #f0f0f0;min-width: 85px;"><strong style="font-weight: bold;color: black;"><span leaf="">围棋（AlphaGo）</span></strong></th></tr></thead><tbody><tr style="border: 0;border-top: 1px solid #ccc;background-color: white;"><td valign="top" style="font-size: 16px;border: 1px solid #ccc;padding: 5px 10px;text-align: left;min-width: 85px;"><strong style="font-weight: bold;color: black;"><span leaf="">棋盘大小</span></strong></td><td valign="top" style="font-size: 16px;border: 1px solid #ccc;padding: 5px 10px;text-align: left;min-width: 85px;"><section><span leaf="">8×8（64 格）</span></section></td><td valign="top" style="font-size: 16px;border: 1px solid #ccc;padding: 5px 10px;text-align: left;min-width: 85px;"><section><span leaf="">19×19（361 点）</span></section></td></tr><tr style="border: 0;border-top: 1px solid #ccc;background-color: #F8F8F8;"><td valign="top" style="font-size: 16px;border: 1px solid #ccc;padding: 5px 10px;text-align: left;min-width: 85px;"><strong style="font-weight: bold;color: black;"><span leaf="">平均每步合法走法</span></strong></td><td valign="top" style="font-size: 16px;border: 1px solid #ccc;padding: 5px 10px;text-align: left;min-width: 85px;"><section><span leaf="">35 种</span></section></td><td valign="top" style="font-size: 16px;border: 1px solid #ccc;padding: 5px 10px;text-align: left;min-width: 85px;"><section><span leaf="">250 种</span></section></td></tr><tr style="border: 0;border-top: 1px solid #ccc;background-color: white;"><td valign="top" style="font-size: 16px;border: 1px solid #ccc;padding: 5px 10px;text-align: left;min-width: 85px;"><strong style="font-weight: bold;color: black;"><span leaf="">平均对局步数</span></strong></td><td valign="top" style="font-size: 16px;border: 1px solid #ccc;padding: 5px 10px;text-align: left;min-width: 85px;"><section><span leaf="">80 步/局</span></section></td><td valign="top" style="font-size: 16px;border: 1px solid #ccc;padding: 5px 10px;text-align: left;min-width: 85px;"><section><span leaf="">150 步/局</span></section></td></tr><tr style="border: 0;border-top: 1px solid #ccc;background-color: #F8F8F8;"><td valign="top" style="font-size: 16px;border: 1px solid #ccc;padding: 5px 10px;text-align: left;min-width: 85px;"><strong style="font-weight: bold;color: black;"><span leaf="">状态空间复杂度</span></strong></td><td valign="top" style="font-size: 16px;border: 1px solid #ccc;padding: 5px 10px;text-align: left;min-width: 85px;"><span style="cursor:pointer;"><span role="presentation" data-formula="10^{47}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -871.8 1757.1 893.8" aria-hidden="true" style="vertical-align: -0.05ex;width: 3.975ex;height: 2.022ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msup"><g data-mml-node="mn"><path data-c="31" d="M213 578L200 573Q186 568 160 563T102 556H83V602H102Q149 604 189 617T245 641T273 663Q275 666 285 666Q294 666 302 660V361L303 61Q310 54 315 52T339 48T401 46H427V0H416Q395 3 257 3Q121 3 100 0H88V46H114Q136 46 152 46T177 47T193 50T201 52T207 57T213 61V578Z"></path><path data-c="30" d="M96 585Q152 666 249 666Q297 666 345 640T423 548Q460 465 460 320Q460 165 417 83Q397 41 362 16T301 -15T250 -22Q224 -22 198 -16T137 16T82 83Q39 165 39 320Q39 494 96 585ZM321 597Q291 629 250 629Q208 629 178 597Q153 571 145 525T137 333Q137 175 145 125T181 46Q209 16 250 16Q290 16 318 46Q347 76 354 130T362 333Q362 478 354 524T321 597Z" transform="translate(500, 0)"></path></g><g data-mml-node="TeXAtom" transform="translate(1000, 393.1) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mn"><path data-c="34" d="M462 0Q444 3 333 3Q217 3 199 0H190V46H221Q241 46 248 46T265 48T279 53T286 61Q287 63 287 115V165H28V211L179 442Q332 674 334 675Q336 677 355 677H373L379 671V211H471V165H379V114Q379 73 379 66T385 54Q393 47 442 46H471V0H462ZM293 211V545L74 212L183 211H293Z"></path><path data-c="37" d="M55 458Q56 460 72 567L88 674Q88 676 108 676H128V672Q128 662 143 655T195 646T364 644H485V605L417 512Q408 500 387 472T360 435T339 403T319 367T305 330T292 284T284 230T278 162T275 80Q275 66 275 52T274 28V19Q270 2 255 -10T221 -22Q210 -22 200 -19T179 0T168 40Q168 198 265 368Q285 400 349 489L395 552H302Q128 552 119 546Q113 543 108 522T98 479L95 458V455H55V458Z" transform="translate(500, 0)"></path></g></g></g></g></g></svg></span></span><section><span leaf="">&nbsp;种可能局面</span></section></td><td valign="top" style="font-size: 16px;border: 1px solid #ccc;padding: 5px 10px;text-align: left;min-width: 85px;"><span style="cursor:pointer;"><span role="presentation" data-formula="10^{170}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -871.1 2110.7 893.1" aria-hidden="true" style="vertical-align: -0.05ex;width: 4.775ex;height: 2.02ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msup"><g data-mml-node="mn"><path data-c="31" d="M213 578L200 573Q186 568 160 563T102 556H83V602H102Q149 604 189 617T245 641T273 663Q275 666 285 666Q294 666 302 660V361L303 61Q310 54 315 52T339 48T401 46H427V0H416Q395 3 257 3Q121 3 100 0H88V46H114Q136 46 152 46T177 47T193 50T201 52T207 57T213 61V578Z"></path><path data-c="30" d="M96 585Q152 666 249 666Q297 666 345 640T423 548Q460 465 460 320Q460 165 417 83Q397 41 362 16T301 -15T250 -22Q224 -22 198 -16T137 16T82 83Q39 165 39 320Q39 494 96 585ZM321 597Q291 629 250 629Q208 629 178 597Q153 571 145 525T137 333Q137 175 145 125T181 46Q209 16 250 16Q290 16 318 46Q347 76 354 130T362 333Q362 478 354 524T321 597Z" transform="translate(500, 0)"></path></g><g data-mml-node="TeXAtom" transform="translate(1000, 393.1) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mn"><path data-c="31" d="M213 578L200 573Q186 568 160 563T102 556H83V602H102Q149 604 189 617T245 641T273 663Q275 666 285 666Q294 666 302 660V361L303 61Q310 54 315 52T339 48T401 46H427V0H416Q395 3 257 3Q121 3 100 0H88V46H114Q136 46 152 46T177 47T193 50T201 52T207 57T213 61V578Z"></path><path data-c="37" d="M55 458Q56 460 72 567L88 674Q88 676 108 676H128V672Q128 662 143 655T195 646T364 644H485V605L417 512Q408 500 387 472T360 435T339 403T319 367T305 330T292 284T284 230T278 162T275 80Q275 66 275 52T274 28V19Q270 2 255 -10T221 -22Q210 -22 200 -19T179 0T168 40Q168 198 265 368Q285 400 349 489L395 552H302Q128 552 119 546Q113 543 108 522T98 479L95 458V455H55V458Z" transform="translate(500, 0)"></path><path data-c="30" d="M96 585Q152 666 249 666Q297 666 345 640T423 548Q460 465 460 320Q460 165 417 83Q397 41 362 16T301 -15T250 -22Q224 -22 198 -16T137 16T82 83Q39 165 39 320Q39 494 96 585ZM321 597Q291 629 250 629Q208 629 178 597Q153 571 145 525T137 333Q137 175 145 125T181 46Q209 16 250 16Q290 16 318 46Q347 76 354 130T362 333Q362 478 354 524T321 597Z" transform="translate(1000, 0)"></path></g></g></g></g></g></svg></span></span><section><span leaf="">&nbsp;种可能局面</span></section></td></tr></tbody></table></section><p style="text-align: center;"><span leaf=""><span textstyle="" style="font-size: 14px;color: rgb(136, 136, 136);">▲ 国际象棋和围棋的复杂度对比</span></span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">尽管规则大幅压缩了复杂度，围棋的实际状态空间仍是国际象棋的&nbsp;</span><span style="cursor:pointer;"><span role="presentation" data-formula="10^{123}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -864 2110.7 886" aria-hidden="true" style="vertical-align: -0.05ex;width: 4.775ex;height: 2.005ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msup"><g data-mml-node="mn"><path data-c="31" d="M213 578L200 573Q186 568 160 563T102 556H83V602H102Q149 604 189 617T245 641T273 663Q275 666 285 666Q294 666 302 660V361L303 61Q310 54 315 52T339 48T401 46H427V0H416Q395 3 257 3Q121 3 100 0H88V46H114Q136 46 152 46T177 47T193 50T201 52T207 57T213 61V578Z"></path><path data-c="30" d="M96 585Q152 666 249 666Q297 666 345 640T423 548Q460 465 460 320Q460 165 417 83Q397 41 362 16T301 -15T250 -22Q224 -22 198 -16T137 16T82 83Q39 165 39 320Q39 494 96 585ZM321 597Q291 629 250 629Q208 629 178 597Q153 571 145 525T137 333Q137 175 145 125T181 46Q209 16 250 16Q290 16 318 46Q347 76 354 130T362 333Q362 478 354 524T321 597Z" transform="translate(500, 0)"></path></g><g data-mml-node="TeXAtom" transform="translate(1000, 393.1) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mn"><path data-c="31" d="M213 578L200 573Q186 568 160 563T102 556H83V602H102Q149 604 189 617T245 641T273 663Q275 666 285 666Q294 666 302 660V361L303 61Q310 54 315 52T339 48T401 46H427V0H416Q395 3 257 3Q121 3 100 0H88V46H114Q136 46 152 46T177 47T193 50T201 52T207 57T213 61V578Z"></path><path data-c="32" d="M109 429Q82 429 66 447T50 491Q50 562 103 614T235 666Q326 666 387 610T449 465Q449 422 429 383T381 315T301 241Q265 210 201 149L142 93L218 92Q375 92 385 97Q392 99 409 186V189H449V186Q448 183 436 95T421 3V0H50V19V31Q50 38 56 46T86 81Q115 113 136 137Q145 147 170 174T204 211T233 244T261 278T284 308T305 340T320 369T333 401T340 431T343 464Q343 527 309 573T212 619Q179 619 154 602T119 569T109 550Q109 549 114 549Q132 549 151 535T170 489Q170 464 154 447T109 429Z" transform="translate(500, 0)"></path><path data-c="33" d="M127 463Q100 463 85 480T69 524Q69 579 117 622T233 665Q268 665 277 664Q351 652 390 611T430 522Q430 470 396 421T302 350L299 348Q299 347 308 345T337 336T375 315Q457 262 457 175Q457 96 395 37T238 -22Q158 -22 100 21T42 130Q42 158 60 175T105 193Q133 193 151 175T169 130Q169 119 166 110T159 94T148 82T136 74T126 70T118 67L114 66Q165 21 238 21Q293 21 321 74Q338 107 338 175V195Q338 290 274 322Q259 328 213 329L171 330L168 332Q166 335 166 348Q166 366 174 366Q202 366 232 371Q266 376 294 413T322 525V533Q322 590 287 612Q265 626 240 626Q208 626 181 615T143 592T132 580H135Q138 579 143 578T153 573T165 566T175 555T183 540T186 520Q186 498 172 481T127 463Z" transform="translate(1000, 0)"></path></g></g></g></g></g></svg></span></span><span leaf="">&nbsp;倍，这是一个巨大的量级差异，要知道，</span><strong style="font-weight: bold;color: black;"><span leaf="">宇宙中的所有原子数量大约是&nbsp;</span><span style="cursor:pointer;"><span role="presentation" data-formula="10^{78}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -871.1 1757.1 893.1" aria-hidden="true" style="vertical-align: -0.05ex;width: 3.975ex;height: 2.02ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msup"><g data-mml-node="mn"><path data-c="31" d="M213 578L200 573Q186 568 160 563T102 556H83V602H102Q149 604 189 617T245 641T273 663Q275 666 285 666Q294 666 302 660V361L303 61Q310 54 315 52T339 48T401 46H427V0H416Q395 3 257 3Q121 3 100 0H88V46H114Q136 46 152 46T177 47T193 50T201 52T207 57T213 61V578Z"></path><path data-c="30" d="M96 585Q152 666 249 666Q297 666 345 640T423 548Q460 465 460 320Q460 165 417 83Q397 41 362 16T301 -15T250 -22Q224 -22 198 -16T137 16T82 83Q39 165 39 320Q39 494 96 585ZM321 597Q291 629 250 629Q208 629 178 597Q153 571 145 525T137 333Q137 175 145 125T181 46Q209 16 250 16Q290 16 318 46Q347 76 354 130T362 333Q362 478 354 524T321 597Z" transform="translate(500, 0)"></path></g><g data-mml-node="TeXAtom" transform="translate(1000, 393.1) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mn"><path data-c="37" d="M55 458Q56 460 72 567L88 674Q88 676 108 676H128V672Q128 662 143 655T195 646T364 644H485V605L417 512Q408 500 387 472T360 435T339 403T319 367T305 330T292 284T284 230T278 162T275 80Q275 66 275 52T274 28V19Q270 2 255 -10T221 -22Q210 -22 200 -19T179 0T168 40Q168 198 265 368Q285 400 349 489L395 552H302Q128 552 119 546Q113 543 108 522T98 479L95 458V455H55V458Z"></path><path data-c="38" d="M70 417T70 494T124 618T248 666Q319 666 374 624T429 515Q429 485 418 459T392 417T361 389T335 371T324 363L338 354Q352 344 366 334T382 323Q457 264 457 174Q457 95 399 37T249 -22Q159 -22 101 29T43 155Q43 263 172 335L154 348Q133 361 127 368Q70 417 70 494ZM286 386L292 390Q298 394 301 396T311 403T323 413T334 425T345 438T355 454T364 471T369 491T371 513Q371 556 342 586T275 624Q268 625 242 625Q201 625 165 599T128 534Q128 511 141 492T167 463T217 431Q224 426 228 424L286 386ZM250 21Q308 21 350 55T392 137Q392 154 387 169T375 194T353 216T330 234T301 253T274 270Q260 279 244 289T218 306L210 311Q204 311 181 294T133 239T107 157Q107 98 150 60T250 21Z" transform="translate(500, 0)"></path></g></g></g></g></g></svg></span></span><span leaf="">&nbsp;个</span></strong><span leaf="">。在</span><span style="cursor:pointer;"><span role="presentation" data-formula="10^{47}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -871.8 1757.1 893.8" aria-hidden="true" style="vertical-align: -0.05ex;width: 3.975ex;height: 2.022ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msup"><g data-mml-node="mn"><path data-c="31" d="M213 578L200 573Q186 568 160 563T102 556H83V602H102Q149 604 189 617T245 641T273 663Q275 666 285 666Q294 666 302 660V361L303 61Q310 54 315 52T339 48T401 46H427V0H416Q395 3 257 3Q121 3 100 0H88V46H114Q136 46 152 46T177 47T193 50T201 52T207 57T213 61V578Z"></path><path data-c="30" d="M96 585Q152 666 249 666Q297 666 345 640T423 548Q460 465 460 320Q460 165 417 83Q397 41 362 16T301 -15T250 -22Q224 -22 198 -16T137 16T82 83Q39 165 39 320Q39 494 96 585ZM321 597Q291 629 250 629Q208 629 178 597Q153 571 145 525T137 333Q137 175 145 125T181 46Q209 16 250 16Q290 16 318 46Q347 76 354 130T362 333Q362 478 354 524T321 597Z" transform="translate(500, 0)"></path></g><g data-mml-node="TeXAtom" transform="translate(1000, 393.1) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mn"><path data-c="34" d="M462 0Q444 3 333 3Q217 3 199 0H190V46H221Q241 46 248 46T265 48T279 53T286 61Q287 63 287 115V165H28V211L179 442Q332 674 334 675Q336 677 355 677H373L379 671V211H471V165H379V114Q379 73 379 66T385 54Q393 47 442 46H471V0H462ZM293 211V545L74 212L183 211H293Z"></path><path data-c="37" d="M55 458Q56 460 72 567L88 674Q88 676 108 676H128V672Q128 662 143 655T195 646T364 644H485V605L417 512Q408 500 387 472T360 435T339 403T319 367T305 330T292 284T284 230T278 162T275 80Q275 66 275 52T274 28V19Q270 2 255 -10T221 -22Q210 -22 200 -19T179 0T168 40Q168 198 265 368Q285 400 349 489L395 552H302Q128 552 119 546Q113 543 108 522T98 479L95 458V455H55V458Z" transform="translate(500, 0)"></path></g></g></g></g></g></svg></span></span><span leaf="">范围内的计算，依赖 IBM 计算机可以暴力搜索计算出所有可能的走法，所以严格意义上来讲，深蓝的突破和神经网络、模型没有一点关系，它只是基于规则的暴力搜索，相当于</span><strong style="font-weight: bold;color: black;"><span leaf="">一个比人类快得多的计算器</span></strong><span leaf="">。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">但</span><span style="cursor:pointer;"><span role="presentation" data-formula="10^{170}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -871.1 2110.7 893.1" aria-hidden="true" style="vertical-align: -0.05ex;width: 4.775ex;height: 2.02ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msup"><g data-mml-node="mn"><path data-c="31" d="M213 578L200 573Q186 568 160 563T102 556H83V602H102Q149 604 189 617T245 641T273 663Q275 666 285 666Q294 666 302 660V361L303 61Q310 54 315 52T339 48T401 46H427V0H416Q395 3 257 3Q121 3 100 0H88V46H114Q136 46 152 46T177 47T193 50T201 52T207 57T213 61V578Z"></path><path data-c="30" d="M96 585Q152 666 249 666Q297 666 345 640T423 548Q460 465 460 320Q460 165 417 83Q397 41 362 16T301 -15T250 -22Q224 -22 198 -16T137 16T82 83Q39 165 39 320Q39 494 96 585ZM321 597Q291 629 250 629Q208 629 178 597Q153 571 145 525T137 333Q137 175 145 125T181 46Q209 16 250 16Q290 16 318 46Q347 76 354 130T362 333Q362 478 354 524T321 597Z" transform="translate(500, 0)"></path></g><g data-mml-node="TeXAtom" transform="translate(1000, 393.1) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mn"><path data-c="31" d="M213 578L200 573Q186 568 160 563T102 556H83V602H102Q149 604 189 617T245 641T273 663Q275 666 285 666Q294 666 302 660V361L303 61Q310 54 315 52T339 48T401 46H427V0H416Q395 3 257 3Q121 3 100 0H88V46H114Q136 46 152 46T177 47T193 50T201 52T207 57T213 61V578Z"></path><path data-c="37" d="M55 458Q56 460 72 567L88 674Q88 676 108 676H128V672Q128 662 143 655T195 646T364 644H485V605L417 512Q408 500 387 472T360 435T339 403T319 367T305 330T292 284T284 230T278 162T275 80Q275 66 275 52T274 28V19Q270 2 255 -10T221 -22Q210 -22 200 -19T179 0T168 40Q168 198 265 368Q285 400 349 489L395 552H302Q128 552 119 546Q113 543 108 522T98 479L95 458V455H55V458Z" transform="translate(500, 0)"></path><path data-c="30" d="M96 585Q152 666 249 666Q297 666 345 640T423 548Q460 465 460 320Q460 165 417 83Q397 41 362 16T301 -15T250 -22Q224 -22 198 -16T137 16T82 83Q39 165 39 320Q39 494 96 585ZM321 597Q291 629 250 629Q208 629 178 597Q153 571 145 525T137 333Q137 175 145 125T181 46Q209 16 250 16Q290 16 318 46Q347 76 354 130T362 333Q362 478 354 524T321 597Z" transform="translate(1000, 0)"></path></g></g></g></g></g></svg></span></span><span leaf="">的量级，已经远远超出了当前超级计算机的算力，这迫使 AlphaGo 放弃暴力搜索，转而依赖深度学习：DeepMind 团队首先用人类棋谱进行训练，根据当前棋盘状态预测下一步棋的最佳走法。但是，</span><strong style="font-weight: bold;color: black;"><span leaf="">学习顶尖棋手走法，只能让模型的能力接近顶尖棋手，而无法超越他们</span></strong><span leaf="">。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">AlphaGo 首先用人类棋谱训练神经网络，然后通过设计一套奖励函数，让模型自我对弈进行强化学习。和李世石对弈的第二局，AlphaGo 的第 19 手棋（第 37 步[^1]）让李世石陷入长考，这步棋也被很多棋手认为是“人类永远不会下的一步”，如果没有强化学习和自我对弈，只是学习过人类棋谱，AlphaGo 永远无法下出这步棋。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">2017 年 5 月，AlphaGo 以 3:0 击败了柯洁，DeepMind 团队称，有一个比它更强的模型还没出战。[^2] 他们发现，其实根本不需要给 AI 喂人类高手的对局棋谱，</span><strong style="font-weight: bold;color: black;"><span leaf="">只要告诉它围棋的基本规则，让模型自我对弈，赢了就奖励、输了就惩罚</span></strong><span leaf="">，模型就能很快从零开始学会围棋并超越人类，研究人员把这个模型称为 AlphaZero，因为它不需要任何人类知识。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">让我重复一遍这个不可思议的事实：无需任何人类棋局作为训练数据，仅靠自我对弈，模型就能学会围棋，甚至这样训练出的模型，比喂人类棋谱的 AlphaGo 更强大。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">在此之后，围棋变成了比谁更像 AI 的游戏，因为 AI 的棋力已经超越了人类的认知范围。所以，</span><strong style="font-weight: bold;color: black;"><span leaf="">想要超越人类，必须让模型摆脱人类经验、好恶判断(哪怕是来自最强人类的经验也不行)的限制</span></strong><span leaf="">，只有这样才能让模型能够自我博弈，真正超越人类的束缚。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">AlphaGo 击败李世石引发了狂热的 AI 浪潮，从 2016 到 2020 年，巨额的 AI 经费投入最终收获的成果寥寥无几。数得过来的的可能只有人脸识别、语音识别和合成、自动驾驶、对抗生成网络等——但这些都算不上超越人类的智能。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">为何如此强大的超越人类的能力，却没有在其他领域大放异彩？人们发现，围棋这种规则明确、目标单一的封闭空间游戏最适合强化学习，现实世界是个开放空间，每一步都有无限种可能，没有确定的目标(比如“赢”)，没有明确的成败判定依据(比如占据棋盘更多区域)，试错成本也很高，自动驾驶一旦出错后果严重。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">AI 领域冷寂了下来，直到 ChatGPT 的出现。</span></p><h2 data-tool="mdnice编辑器" style="margin-top: 30px;margin-bottom: 15px;padding: 0px;font-weight: bold;color: black;font-size: 22px;"><span style="display: none;"></span><span leaf="">ChatGPT 改变世界</span></h2><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">ChatGPT 被 The New Yorker 称为网络世界的模糊照片(</span><code style="font-size: 14px;word-wrap: break-word;padding: 2px 4px;border-radius: 4px;margin: 0 2px;color: #1e6bb8;background-color: rgba(27,31,35,.05);font-family: Operator Mono, Consolas, Monaco, Menlo, monospace;word-break: break-all;"><span leaf=""><span textstyle="" style="color: rgb(214, 214, 214);">ChatGPT Is a Blurry JPEG of the Web</span></span></code><span leaf="">[^3])，它所做的只是把整个互联网的文本数据送进一个模型，然后预测下一个字是什_</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">这个字最有可能是"么"。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">一个参数量有限的模型，被迫学习几乎无限的知识：过去几百年不同语言的书籍、过去几十年互联网上产生的文字，所以它其实是在做信息压缩：将不同语言记载的相同的人类智慧、历史事件和天文地理浓缩在一个模型里。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">科学家惊讶地发现：</span><strong style="font-weight: bold;color: black;"><span leaf="">在压缩中产生了智能</span></strong><span leaf="">。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">我们可以这么理解：让模型读一本推理小说，小说的结尾"凶手是_"，如果 AI 能准确预测凶手的姓名，我们有理由相信它读懂了整个故事，即它拥有“智能”，而不是单纯的文字拼贴或死记硬背。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">让模型学习并预测下一个字的过程，被称之为</span><strong style="font-weight: bold;color: black;"><span leaf="">预训练</span></strong><span leaf="">(Pre-Training)，此时的模型只能不断预测下一个字，但不能回答你的问题，要实现 ChatGPT 那样的问答，需要进行第二阶段的训练，我们称之为</span><strong style="font-weight: bold;color: black;"><span leaf="">监督微调</span></strong><span leaf="">(Supervised Fine-Tuning, SFT)，此时需要人为构建一批问答数据，例如:</span></p><section class="code-snippet__fix code-snippet__js"><ul class="code-snippet__line-index code-snippet__js"><li></li><li></li><li></li><li></li><li></li><li></li><li></li></ul><pre class="code-snippet__js" data-lang="bash"><code><span leaf=""><span class="code-snippet__comment"># 例子一</span></span></code><code><span leaf=""><span class="code-snippet__plaintext">人类:第二次世界大战发生在什么时候?</span></span></code><code><span leaf=""><span class="code-snippet__plaintext">AI:1939年</span></span></code><code><span leaf=""><br></span></code><code><span leaf=""><span class="code-snippet__plaintext"># 例子二</span></span></code><code><span leaf=""><span class="code-snippet__plaintext">人类:请总结下面这段话....{xxx}</span></span></code><code><span leaf=""><span class="code-snippet__plaintext">AI:好的,以下是总结:xxx</span></span></code></pre></section><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">值得注意的是，以上这些例子是</span><strong style="font-weight: bold;color: black;"><span leaf="">人工构造的</span></strong><span leaf="">，目的是让 AI 学习人类的问答模式，这样当你说"请翻译这句:xxx"时，送给 AI 的内容就是</span></p><section class="code-snippet__fix code-snippet__js"><ul class="code-snippet__line-index code-snippet__js"><li></li><li></li></ul><pre class="code-snippet__js" data-lang="css"><code><span leaf=""><span class="code-snippet__plaintext">人类:请翻译这句:{xxx}</span></span></code><code><span leaf=""><span class="code-snippet__plaintext">AI:</span></span></code></pre></section><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">你看，它其实仍然在预测下一个字，在这个过程中模型并没有变得更聪明，它只是学会了人类的问答模式，听懂了你在要求它做什么。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">这还不够，因为模型输出的回答有时好、有时差，有些回答还涉及种族歧视、或违反人类伦理(</span><em style="font-style: italic;color: black;"><span leaf=""><span textstyle="" style="font-size: 15px;color: rgb(178, 178, 178);font-style: normal;">"如何抢银行？"</span></span></em><span leaf="">)，此时我们需要找一批人，针对模型输出的几千条数据进行标注：给好的回答打高分、给违反伦理的回答打负分，最终我们可以用这批标注数据训练一个</span><strong style="font-weight: bold;color: black;"><span leaf="">奖励模型</span></strong><span leaf="">，它能判断</span><strong style="font-weight: bold;color: black;"><span leaf="">模型输出的回答是否符合人类偏好</span></strong><span leaf="">。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">我们用这个</span><strong style="font-weight: bold;color: black;"><span leaf="">奖励模型</span></strong><span leaf="">来继续训练大模型，让模型输出的回答更符合人类偏好，这个过程被称为通过人类反馈的强化学习（RLHF）。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><strong style="font-weight: bold;color: black;"><span leaf="">总结一下</span></strong><span leaf="">：让模型在预测下一个字的过程中产生智能，然后通过监督微调来让模型学会人类的问答模式，最后通过 RLHF 来让模型输出符合人类偏好的回答。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">这就是 ChatGPT 的大致思路。</span></p><h2 data-tool="mdnice编辑器" style="margin-top: 30px;margin-bottom: 15px;padding: 0px;font-weight: bold;color: black;font-size: 22px;"><span style="display: none;"></span><span leaf="">大模型撞墙</span></h2><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">OpenAI 的科学家们是最早坚信</span><strong style="font-weight: bold;color: black;"><span leaf="">压缩即智能</span></strong><span leaf="">的那批人，他们认为只要使用更海量优质的数据、在更庞大的 GPU 集群上训练更大参数量的模型，就能产生更大的智能，ChatGPT 就是在这样的信仰之下诞生的。Google 虽然做出了 Transformer，但他们无法进行创业公司那样的豪赌。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">DeepSeek V3 和 ChatGPT 做的事差不多，因为美国 GPU 出口管制，聪明的研究者被迫使用了更高效的训练技巧(MoE/FP8)，他们也拥有顶尖的基础设施团队，最终只用了 550 万美元就训练了比肩 GPT-4o 的模型，后者的训练成本超过 1 亿美元。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">但本文重点是 R1。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">这里想说的是，人类产生的数据在 2024 年底已经被消耗殆尽了，模型的尺寸可以随着 GPU 集群的增加，轻易扩大 10 倍甚至 100 倍，但人类每一年产生的新数据，相比现有的几十年、过去几百年的数据来说，增量几乎可以忽略不计。而按照 Chinchilla 扩展定律（Scaling Laws）：每增加一倍模型大小，训练数据的数量也应增加一倍。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">这就导致了</span><strong style="font-weight: bold;color: black;"><span leaf="">预训练撞墙</span></strong><span leaf="">的事实：模型体积虽然增加了 10 倍，但我们已经无法获得比现在多 10 倍的高质量数据了。GPT-5 迟迟不发布、国产大模型厂商不做预训练的传闻，都和这个问题有关。</span></p><h2 data-tool="mdnice编辑器" style="margin-top: 30px;margin-bottom: 15px;padding: 0px;font-weight: bold;color: black;font-size: 22px;"><span style="display: none;"></span><span leaf="">RLHF 并不是 RL</span></h2><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">另一方面，基于人类偏好的强化学习(RLHF)最大的问题是：普通人类的智商已经不足以评估模型结果了。在 ChatGPT 时代，AI 的智商低于普通人，所以 OpenAI 可以请大量廉价劳动力，对 AI 的输出结果进行评测：好/中/差，但很快随着 GPT-4o/Claude 3.5 Sonnet 的诞生，大模型的智商已经超越了普通人，只有专家级别的标注人员，才有可能帮助模型提升。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">且不说聘请专家的成本，那专家之后呢？终究有一天，最顶尖的专家也无法评估模型结果了，AI 就超越人类了吗？并不是。AlphaGo 对李世石下出第 19 手棋，从人类偏好来看，这步棋绝不可能赢，所以如果让李世石来做人类反馈(Human Feedback, HF)评价 AI 的这步棋，他很可能也会给出负分。这样，</span><strong style="font-weight: bold;color: black;"><span leaf="">AI 就永远无法逃出人类思维的枷锁</span></strong><span leaf="">。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">你可以把 AI 想象成一个学生，给他打分的人从高中老师变成了大学教授，学生的水平会变高，但几乎不可能超越教授。RLHF 本质上是一种讨好人类的训练方式，它让模型输出符合人类偏好，但同时它扼杀了</span><strong style="font-weight: bold;color: black;"><span leaf="">超越人类</span></strong><span leaf="">的可能性。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">所以我才说，</span><strong style="font-weight: bold;color: black;"><span leaf="">RLHF 并不是 RL</span></strong><span leaf="">，最近 Andrej Karpathy 也发表了类似的看法[^4]。</span></p><figure data-tool="mdnice编辑器" style="margin: 0;margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><span leaf=""><img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/sKEP1WDrNUstgRUcpHAQwuULJkIzkt6BA3ektxLyia8PqkXaNFGp55wibNhNTSnGfjesDq6jyo76iauwrrWXlg6jA/640?wx_fmt=jpeg&amp;from=appmsg" class="rich_pages wxw-img" data-ratio="0.20555555555555555" data-type="jpeg" data-w="1080" style="display: block; margin: 0px auto; max-width: 100%; height: auto !important; visibility: visible !important; width: 657px !important;" data-imgfileid="100000635" data-original-style="display: block;margin: 0 auto;max-width: 100%;" data-index="1" src="https://mmbiz.qpic.cn/mmbiz_jpg/sKEP1WDrNUstgRUcpHAQwuULJkIzkt6BA3ektxLyia8PqkXaNFGp55wibNhNTSnGfjesDq6jyo76iauwrrWXlg6jA/640?wx_fmt=jpeg&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" _width="677px" crossorigin="anonymous" alt="图片" data-fail="0"></span></figure><h2 data-tool="mdnice编辑器" style="margin-top: 30px;margin-bottom: 15px;padding: 0px;font-weight: bold;color: black;font-size: 22px;"><span style="display: none;"></span><span leaf="">OpenAI 的解法</span></h2><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">丹尼尔·卡尼曼在《思考快与慢》里提出，人脑对待问题有两种思考模式：一类问题不经过脑子就能给出回答，也就是</span><strong style="font-weight: bold;color: black;"><span leaf="">快思考</span></strong><span leaf="">，一类问题需要类似围棋的长考才能给出答案，也就是</span><strong style="font-weight: bold;color: black;"><span leaf="">慢思考</span></strong><span leaf="">。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">既然训练已经到头了，那可否从推理，也就是给出回答的时候，通过增加思考时间，从而让回答质量变好呢？这其实也有先例：科学家很早就发现，给模型提问时加一句：“让我们一步一步思考”("Let's think step by step")，可以让模型输出自己的思考过程，最终给出更好的结果，这被称为</span><strong style="font-weight: bold;color: black;"><span leaf="">思维链</span></strong><span leaf="">(Chain-of-Thought, CoT)。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">2024 年底大模型预训练撞墙后，</span><strong style="font-weight: bold;color: black;"><span leaf="">使用强化学习（RL）来训练模型思维链</span></strong><span leaf="">成为了所有人的新共识。这种训练极大地提高了某些特定、客观可测量任务（如数学、编码）的性能。它需要从普通的预训练模型开始，在第二阶段使用强化学习训练推理思维链，这类模型被称为&nbsp;</span><strong style="font-weight: bold;color: black;"><span leaf="">Reasoning 模型</span></strong><span leaf="">，OpenAI 在 2024 年 9 月发布的 o1 模型以及随后发布的 o3 模型，都是 Reasoning 模型。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">不同于 ChatGPT 和 GPT-4/4o，在 o1/o3 这类 Reasoning 模型 的训练过程中，</span><strong style="font-weight: bold;color: black;"><span leaf="">人类反馈已经不再重要了</span></strong><span leaf="">，因为可以自动评估每一步的思考结果，从而给予奖励/惩罚。Anthropic 的 CEO 在昨天的文章中[^5]用</span><em style="font-style: italic;color: black;"><span leaf="">转折点</span></em><span leaf="">来形容这一技术路线：存在一个强大的新范式，它处于 Scaling Law 的早期，可以快速取得重大进展。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">虽然 OpenAI 并没有公布他们的强化学习算法细节，但最近 DeepSeek R1 的发布，向我们展示了一种可行的方法。</span></p><h2 data-tool="mdnice编辑器" style="margin-top: 30px;margin-bottom: 15px;padding: 0px;font-weight: bold;color: black;font-size: 22px;"><span style="display: none;"></span><span leaf="">DeepSeek R1-Zero</span></h2><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">我猜 DeepSeek 将自己的纯强化学习模型命名为 R1-Zero 也是在致敬 AlphaZero，那个通过自我对弈、不需要学习任何棋谱就能超越最强棋手的算法。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">要训练慢思考模型，首先要构造质量足够好的、包含思维过程的数据，并且如果希望强化学习不依赖人类，就需要对思考的每一步进行定量(好/坏)评估，从而给予每一步思考结果奖励/惩罚。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">正如上文所说：数学和代码这两个数据集最符合要求，数学公式的每一步推导都能被验证是否正确，而代码的输出结果以通过直接在编译器上运行来检验。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">举个例子，在数学课本中，我们经常看到这样的推理过程：</span></p><section class="code-snippet__fix code-snippet__js"><ul class="code-snippet__line-index code-snippet__js"><li></li><li></li><li></li><li></li><li></li><li></li><li></li><li></li></ul><pre class="code-snippet__js" data-lang="xml"><code><span leaf=""><span class="code-snippet__tag"><span class="code-snippet__plaintext">&lt;</span></span><span class="code-snippet__tag"><span class="code-snippet__name">思考</span></span><span class="code-snippet__tag"><span class="code-snippet__plaintext">&gt;</span></span></span></code><code><span leaf=""><span class="code-snippet__plaintext">&nbsp; 设方程根为x, 两边平方得: x² = a - √(a+x)</span></span></code><code><span leaf=""><span class="code-snippet__plaintext">&nbsp; 移项得: √(a+x) = a - x²</span></span></code><code><span leaf=""><span class="code-snippet__plaintext">&nbsp; 再次平方: (a+x) = (a - x²)²</span></span></code><code><span leaf=""><span class="code-snippet__plaintext">&nbsp; 展开: a + x = a² - 2a x² + x⁴</span></span></code><code><span leaf=""><span class="code-snippet__plaintext">&nbsp; 整理: x⁴ - 2a x² - x + (a² - a) = 0</span></span></code><code><span leaf=""><span class="code-snippet__tag"><span class="code-snippet__plaintext">&lt;/</span></span><span class="code-snippet__tag"><span class="code-snippet__name">思考</span></span><span class="code-snippet__tag"><span class="code-snippet__plaintext">&gt;</span></span></span></code><code><span leaf=""><span class="code-snippet__tag"><span class="code-snippet__plaintext">&lt;</span></span><span class="code-snippet__tag"><span class="code-snippet__name">回答</span></span><span class="code-snippet__tag"><span class="code-snippet__plaintext">&gt;</span></span><span class="code-snippet__plaintext">x⁴ - 2a x² - x + (a² - a) = 0</span><span class="code-snippet__tag"><span class="code-snippet__plaintext">&lt;/</span></span><span class="code-snippet__tag"><span class="code-snippet__name">回答</span></span><span class="code-snippet__tag"><span class="code-snippet__plaintext">&gt;</span></span></span></code></pre></section><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">上面这段文本就包含了一个完整的思维链，我们可以通过正则表达式匹配出思考过程和最终回答，从而对模型的推理结果进行定量评估。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">和 OpenAI 类似，DeepSeek 的研究者基于 V3 模型，在数学和代码这两类包含思维链的数据上进行了强化学习(RL)训练，他们创造了一种名为 GRPO（Group Relative Policy Optimization）的强化学习算法，最终得到的 R1-Zero 模型在各项推理指标上相比 DeepSeek V3 显著提升，证明仅通过 RL 就能激发模型的推理能力。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">这是</span><strong style="font-weight: bold;color: black;"><span leaf="">另一个 AlphaZero 时刻</span></strong><span leaf="">，在 R1-Zero 的训练过程，完全不依赖人类的智商、经验和偏好，仅靠 RL 去学习那些客观、可测量的人类真理，最终让推理能力远强于所有非 Reasoning 模型。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">但 R1-Zero 模型只是单纯地进行强化学习，并没有进行监督学习，所以它没有学会人类的问答模式，无法回答人类的问题。并且，它在思考过程中，存在语言混合问题，一会儿说英语、一会儿说中文，可读性差。所以 DeepSeek 团队：</span></p><ol style="margin-top: 8px;margin-bottom: 8px;padding-left: 25px;color: black;list-style-type: decimal;" class="list-paddingleft-1"><li><section style="margin-top: 5px;margin-bottom: 5px;line-height: 26px;text-align: left;color: rgb(1,1,1);font-weight: 500;"><span leaf="">先收集了少量高质量的 Chain-of-Thought（CoT）数据，对 V3 模型进行初步的监督微调，</span><strong style="font-weight: bold;color: black;"><span leaf="">解决了输出语言不一致问题</span></strong><span leaf="">，得到冷启动模型。</span></section></li><li><section style="margin-top: 5px;margin-bottom: 5px;line-height: 26px;text-align: left;color: rgb(1,1,1);font-weight: 500;"><span leaf="">然后，他们在这个冷启动模型上进行类似 R1-Zero 的</span><strong style="font-weight: bold;color: black;"><span leaf="">纯 RL 训练</span></strong><span leaf="">，并加入语言一致性奖励。</span></section></li><li><section style="margin-top: 5px;margin-bottom: 5px;line-height: 26px;text-align: left;color: rgb(1,1,1);font-weight: 500;"><span leaf="">最后，为了适应更普遍、广泛的</span><strong style="font-weight: bold;color: black;"><span leaf="">非推理任务</span></strong><span leaf="">（如写作、事实问答），他们构造了一组数据对模型进行二次微调。</span></section></li><li><section style="margin-top: 5px;margin-bottom: 5px;line-height: 26px;text-align: left;color: rgb(1,1,1);font-weight: 500;"><span leaf="">结合推理和通用任务数据，使用混合奖励信号进行最终强化学习。</span></section></li></ol><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">这个过程大概就是：</span></p><blockquote><p><span leaf="">监督学习(SFT) -&gt; 强化学习(RL) -&gt; 监督学习(SFT) -&gt; 强化学习(RL)</span></p></blockquote><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">经过以上过程，就得到了 DeepSeek R1。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">DeepSeek R1 给世界的贡献是开源世界上第一个比肩闭源(o1)的 Reasoning 模型，现在全世界的用户都可以看到模型在回答问题前的推理过程，也就是"内心独白"，并且完全免费。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">更重要的是，R1-Zero向研究者们揭示了 OpenAI 一直在隐藏的秘密：</span><strong style="font-weight: bold;color: black;"><span leaf="">强化学习可以不依赖人类反馈，纯 RL 也能训练出最强的 Reasoning 模型</span></strong><span leaf="">。所以在我心目中，R1-Zero 比 R1 更有意义。</span></p><h2 data-tool="mdnice编辑器" style="margin-top: 30px;margin-bottom: 15px;padding: 0px;font-weight: bold;color: black;font-size: 22px;"><span style="display: none;"></span><span leaf="">对齐人类品味 VS 超越人类</span></h2><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">几个月前，我读了 Suno 和 Recraft 创始人们的访谈[^6][^7]，Suno 试图让 AI 生成的音乐更悦耳动听，Recraft 试图让 AI 生成的图像更美、更有艺术感。读完后我有一个朦胧的感觉：</span><strong style="font-weight: bold;color: black;"><span leaf="">将模型对齐到人类品味而非客观真理，似乎就能避开真正残酷的、性能可量化的大模型竞技场</span></strong><span leaf="">。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">每天跟所有对手在 AIME、SWE-bench、MATH-500 这些榜单上竞争多累啊，而且不知道哪天一个新模型出来自己就落后了。但人类品味就像时尚：不会提升、只会改变。Suno/Recraft 们显然是明智的，他们只要让行业内最有品味的音乐人和艺术家们满意就够了(当然这也很难)，榜单并不重要。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">但没有客观真理作为Benchmark的坏处也很明显：你的努力和心血带来的效果提升也很难被量化，比如，Suno V4 真的比 V3.5 更好吗？我的经验是 V4 只是音质提升了，创造力并没有提升。并且，</span><strong style="font-weight: bold;color: black;"><span leaf="">依赖人类品味的模型注定无法超越人类</span></strong><span leaf="">：如果 AI 推导出一个超越当代人类理解范围的数学定理，它会被奉为上帝，但如果 Suno 创造出一首人类品味和理解范围外的音乐，在普通人耳朵里听起来可能就只是单纯的噪音。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">对齐客观真理的竞争痛苦但让人神往，因为它有超越人类的可能。</span></p><h2 data-tool="mdnice编辑器" style="margin-top: 30px;margin-bottom: 15px;padding: 0px;font-weight: bold;color: black;font-size: 22px;"><span style="display: none;"></span><span leaf="">对质疑的一些反驳</span></h2><blockquote style="display: block;font-size: 0.9em;overflow: auto;overflow-scrolling: touch;border-left: 3px solid rgba(0, 0, 0, 0.4);background: rgba(0, 0, 0, 0.05);color: #6a737d;padding-top: 10px;padding-bottom: 10px;padding-left: 20px;padding-right: 10px;margin-bottom: 20px;margin-top: 20px;"><p style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0px;color: black;line-height: 26px;"><span leaf="">DeepSeek 的 R1 模型，是否真的超越了 OpenAI？</span></p></blockquote><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">从指标上看，R1 的推理能力</span><strong style="font-weight: bold;color: black;"><span leaf="">超越了所有的非 Reasoning 模型</span></strong><span leaf="">，也就是 ChatGPT/GPT-4/4o 和 Claude 3.5 Sonnet，与同为 Reasoning 模型 的 o1</span><strong style="font-weight: bold;color: black;"><span leaf="">接近</span></strong><span leaf="">，</span><strong style="font-weight: bold;color: black;"><span leaf="">逊色于 o3</span></strong><span leaf="">，但 o1/o3 都是闭源模型。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">很多人的实际体验可能不同，因为 Claude 3.5 Sonnet 在对用户意图理解上更胜一筹。</span></p><blockquote style="display: block;font-size: 0.9em;overflow: auto;overflow-scrolling: touch;border-left: 3px solid rgba(0, 0, 0, 0.4);background: rgba(0, 0, 0, 0.05);color: #6a737d;padding-top: 10px;padding-bottom: 10px;padding-left: 20px;padding-right: 10px;margin-bottom: 20px;margin-top: 20px;"><p style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0px;color: black;line-height: 26px;"><span leaf="">DeepSeek 会收集用户聊天内容用于训练</span></p></blockquote><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><strong style="font-weight: bold;color: black;"><span leaf="">错</span></strong><span leaf="">。很多人有个误区，认为类似 ChatGPT 这类聊天软件会通过收集用户聊天内容用于训练而变得更聪明，其实不然，如果真是这样，那么微信和 Messenger 就能做出世界上最强的大模型了。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">相信你看完这篇文章之后就能意识到：大部分普通用户的日常聊天数据已经不重要了。RL 模型只需要在非常高质量的、包含思维链的推理数据上进行训练，例如数学和代码。这些数据可以通过模型自己生成，无需人类标注。因此 做模型数据标注的公司 Scale AI 的 CEO Alexandr Wang 现在很可能正如临大敌，未来的模型对人类标注需求会越来越少。</span></p><blockquote style="display: block;font-size: 0.9em;overflow: auto;overflow-scrolling: touch;border-left: 3px solid rgba(0, 0, 0, 0.4);background: rgba(0, 0, 0, 0.05);color: #6a737d;padding-top: 10px;padding-bottom: 10px;padding-left: 20px;padding-right: 10px;margin-bottom: 20px;margin-top: 20px;"><p style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0px;color: black;line-height: 26px;"><span leaf="">DeepSeek R1 厉害是因为偷偷蒸馏了 OpenAI 的模型</span></p></blockquote><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><strong style="font-weight: bold;color: black;"><span leaf="">错</span></strong><span leaf="">，R1 最主要的性能提升来自强化学习，你可以看到纯 RL、不需要监督数据的 R1-Zero 模型在推理能力上也很强。而 R1 在冷启动时使用了一些监督学习数据，主要是用于解决语言一致性问题，这些数据并不会提升模型的推理能力。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">另外，很多人对</span><em style="font-style: italic;color: black;"><span leaf="">蒸馏</span></em><span leaf="">有误解：蒸馏通常是指用一个强大的模型作为老师(Teacher)，将它的输出结果作为一个参数更小、性能更差的学生(Student)模型的学习对象，从而让学生模型变得更强大，例如 R1 模型可以用于蒸馏 LLama-70B，</span><strong style="font-weight: bold;color: black;"><span leaf="">蒸馏的学生模型性能几乎一定比老师模型更差，但 R1 模型在某些指标性能比 o1 更强</span></strong><span leaf="">，所以说 R1 蒸馏自 o1 是非常愚蠢的。</span></p><blockquote style="display: block;font-size: 0.9em;overflow: auto;overflow-scrolling: touch;border-left: 3px solid rgba(0, 0, 0, 0.4);background: rgba(0, 0, 0, 0.05);color: #6a737d;padding-top: 10px;padding-bottom: 10px;padding-left: 20px;padding-right: 10px;margin-bottom: 20px;margin-top: 20px;"><p style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0px;color: black;line-height: 26px;"><span leaf="">我问 DeepSeek 它 说自己是 OpenAI 的模型，所以它是套壳的。</span></p></blockquote><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">大模型在训练时并不知道</span><strong style="font-weight: bold;color: black;"><span leaf="">当前的时间</span></strong><span leaf="">，</span><strong style="font-weight: bold;color: black;"><span leaf="">自己究竟被谁训练</span></strong><span leaf="">、</span><strong style="font-weight: bold;color: black;"><span leaf="">训练自己的机器是 H100 还是 H800</span></strong><span leaf="">，X 上有位用户给出了精妙的比喻[^8]：</span><em style="font-style: italic;color: black;"><span leaf="">这就像你问一个 Uber 乘客，他坐的这辆车轮胎是什么品牌</span></em><span leaf="">，模型没有理由知道这些信息。</span></p><h2 data-tool="mdnice编辑器" style="margin-top: 30px;margin-bottom: 15px;padding: 0px;font-weight: bold;color: black;font-size: 22px;"><span style="display: none;"></span><span leaf="">一些感受</span></h2><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">AI 终于除掉了人类反馈的枷锁。DeepSeek R1-Zero 展示了如何使用几乎不使用人类反馈来提升模型性能的方法，这是它的 AlphaZero 时刻。很多人曾说“人工智能，有多少人工就有多少智能”，这个观点可能不再正确了。如果模型能根据直角三角形推导出勾股定理，我们有理由相信它终有一天，能推导出现有数学家尚未发现的定理。</span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">写代码是否仍然有意义？我不知道。今早看到 Github 上热门项目 llama.cpp，一个代码共享者提交了 PR，表示他通过对 SIMD 指令加速，将 WASM 运行速度提升 2 倍，而其中 99%的代码由 DeepSeek R1 完成[^9]，这肯定不是初级工程师级别的代码了，我无法再说 AI 只能取代初级程序员。</span></p><figure data-tool="mdnice编辑器" style="margin: 0;margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><span leaf=""><img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/sKEP1WDrNUstgRUcpHAQwuULJkIzkt6BUyBAQicUUuhIDg8ic9icuqNzEDCIY7sW0PN63hicppticCeQsqkVemlHraQ/640?wx_fmt=jpeg&amp;from=appmsg" class="rich_pages wxw-img" data-ratio="0.5092592592592593" data-type="jpeg" data-w="1080" style="display: block; margin: 0px auto; max-width: 100%; height: auto !important; visibility: visible !important; width: 657px !important;" data-imgfileid="100000634" data-original-style="display: block;margin: 0 auto;max-width: 100%;" data-index="2" src="https://mmbiz.qpic.cn/mmbiz_jpg/sKEP1WDrNUstgRUcpHAQwuULJkIzkt6BUyBAQicUUuhIDg8ic9icuqNzEDCIY7sW0PN63hicppticCeQsqkVemlHraQ/640?wx_fmt=jpeg&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" _width="677px" crossorigin="anonymous" alt="图片" data-fail="0"></span><figcaption style="margin-top: 5px;text-align: center;color: #888;font-size: 14px;"><span leaf="">ggml : x2 speed for WASM by optimizing SIMD</span></figcaption></figure><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0;line-height: 26px;color: black;"><span leaf="">当然，我仍然对此感到非常高兴，人类的能力边界再次被拓展了，干得好 DeepSeek！它是目前世界上最酷的公司。</span></p><h2 data-tool="mdnice编辑器" style="margin-top: 30px;margin-bottom: 15px;padding: 0px;font-weight: bold;color: black;font-size: 22px;"><span style="display: none;"></span><span leaf="">参考资料</span></h2><p style="line-height: 1.6em;"><span leaf=""><span textstyle="" style="color: rgb(136, 136, 136);">[^1]: Wikipedia: AlphaGo versus Lee Sedol</span></span><span leaf=""><br></span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0px;line-height: 1.6em;color: black;"><span leaf=""><span textstyle="" style="color: rgb(136, 136, 136);">[^2]:&nbsp;</span></span><span leaf=""><span textstyle="" style="color: rgb(136, 136, 136);">Nature: Mastering the game of Go without human knowledge</span></span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0px;line-height: 1.6em;color: black;"><span leaf=""><span textstyle="" style="color: rgb(136, 136, 136);">[^3]:&nbsp;</span></span><span leaf=""><span textstyle="" style="color: rgb(136, 136, 136);">The New Yorker: ChatGPT is a blurry JPEG of the web</span></span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0px;line-height: 1.6em;color: black;"><span leaf=""><span textstyle="" style="color: rgb(136, 136, 136);">[^4]:&nbsp;</span></span><span leaf=""><span textstyle="" style="color: rgb(136, 136, 136);">X: Andrej Karpathy</span></span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0px;line-height: 1.6em;color: black;"><span leaf=""><span textstyle="" style="color: rgb(136, 136, 136);">[^5]:&nbsp;</span></span><span leaf=""><span textstyle="" style="color: rgb(136, 136, 136);">On DeepSeek and Export Controls</span></span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0px;line-height: 1.6em;color: black;"><span leaf=""><span textstyle="" style="color: rgb(136, 136, 136);">[^6]:&nbsp;</span></span><a href="https://mp.weixin.qq.com/s?__biz=MzAwNTAyMDAyNQ==&amp;mid=2652309001&amp;idx=1&amp;sn=65d65d6dcdbe3fb3ac4b319804979d4e&amp;scene=21#wechat_redirect" style="text-decoration: none;color: #1e6bb8;word-wrap: break-word;font-weight: bold;border-bottom: 1px solid #1e6bb8;"><span leaf=""><span textstyle="" style="color: rgb(136, 136, 136);">Suno 创始人访谈：至少对音乐来说，Scaling Law 不是万灵药</span></span></a></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0px;line-height: 1.6em;color: black;"><span leaf=""><span textstyle="" style="color: rgb(136, 136, 136);">[^7]:&nbsp;</span></span><a href="https://mp.weixin.qq.com/s?__biz=Mzg5NTc0MjgwMw==&amp;mid=2247513846&amp;idx=1&amp;sn=cd20d3cbdf4466a13aa228392785a066&amp;scene=21#wechat_redirect" style="text-decoration: none;color: #1e6bb8;word-wrap: break-word;font-weight: bold;border-bottom: 1px solid #1e6bb8;"><span leaf=""><span textstyle="" style="color: rgb(136, 136, 136);">Recraft 专访：20 人，8 个月做出了最好的文生图大模型，目标是 AI 版的 Photoshop</span></span></a></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0px;line-height: 1.6em;color: black;"><span leaf=""><span textstyle="" style="color: rgb(136, 136, 136);">[^8]:&nbsp;</span></span><span leaf=""><span textstyle="" style="color: rgb(136, 136, 136);">X: DeepSeek forgot to censor their bot from revealing they use H100 not H800.</span></span></p><p data-tool="mdnice编辑器" style="font-size: 16px;padding-top: 8px;padding-bottom: 8px;margin: 0px;line-height: 1.6em;color: black;"><span leaf=""><span textstyle="" style="color: rgb(136, 136, 136);">[^9]:&nbsp;</span></span><span leaf=""><span textstyle="" style="color: rgb(136, 136, 136);">ggml : x2 speed for WASM by optimizing SIMD</span></span></p></section><p style="display: none;"><mp-style-type data-value="3"></mp-style-type></p></div>

          <script type="text/javascript" nonce="" reportloaderror="">
            var first_sceen__time = (+new Date());
            if ("" == 1 && document.getElementById('js_content')) {
              document.getElementById('js_content').addEventListener("selectstart",function(e){ e.preventDefault(); });
            }
          </script>
        </div>